Wie und warum bewerten wir Metadatenqualität?
Auf umwelt.info generieren wir zu den Metadaten jedes Datensatzes eine Qualitätsbewertung. Diese richtet sich zum einen an die Ersteller der Inhalte, da Metadaten wichtig sind, um Inhalte schnell und gezielt zu finden. Zum anderen richtet sich die Bewertung an Dateninteressierte, um zu zeigen, ob ein gefundener Inhalt bestimmte Merkmale erfüllt. Punkte wie:
- eine einfache Nachnutzbarkeit durch Verwendung offener Lizenzen,
- ein offenes Dateiformat,
- die Möglichkeit, den Inhalt als Datensatz automatisiert herunterzuladen,
sind oft wichtige Kriterien für eine Suche und Weiterverarbeitung.
Die Bestimmung der Metadatenqualität orientiert sich an den vier FAIR-Prinzipien: Findable (Auffindbar), Accessible (Zugänglich), Interoperable (Interoperabel; die Fähigkeit Daten zwischen Systemen austauschen zu können) und Reusable (Wiederverwendbar).
Es gibt unterschiedliche Bewertungssysteme für die einzelnen Kriterien:
- Ja oder Nein: ist das Merkmal vorhanden oder nicht?
- Schrittweise: Bewertung nach festgelegten Kategorien
- Kontinuierlich: Wert auf einer Skala von 1 bis 100
| FAIR Prinzipien | Kriterium | Bedeutung | Bewertungssystem |
|---|---|---|---|
| Auffindbar | Kennung | Besitzt der Inhalt eine eindeutige Kennung? | Ja oder Nein |
| Titel | Ist der Titel informativ? | Schrittweise | |
| Beschreibung | Wie gut ist die Lesbarkeit der Beschreibung? | Kontinuierlich | |
| Schlagwörter | Wie gut stimmen die Schlagwörter mit dem Umweltthesaurus überein? | Kontinuierlich | |
| Raumbezug | Wie präzise ist der Ortsbezug? | Schrittweise | |
| Zeitbezug | Ist ein Zeitbezug vorhanden? | Ja oder Nein | |
| Zugänglich | Verweis | Gibt es einen Link, der direkt zum Angebot führt | Ja oder Nein |
| Direktzugriff | Ist ein Link zum Inhalt vorhanden? | Ja oder Nein | |
| Öffentlich | Ist der Link ohne Anmeldung nutzbar? | Ja oder Nein | |
| Interoperabel | Maschinenlesbare Daten | Ist der Datensatz automatisiert auslesbar? | Ja oder Nein |
| Maschinenlesbare Metadaten | Sind die Metadaten automatisiert auslesbar? | Ja oder Nein | |
| Medientyp | Ist das Dateiformat des Datensatzes bekannt? | Ja oder Nein | |
| Offenes Dateiformat | Ist das Dateiformat des Datensatzes offen (z.B. .CSV)? | Ja oder Nein | |
| Wiederverwendbar | Lizenz | Ist die Lizenz bekannt und frei? | Schrittweise |
| Kontakt | Sind Kontaktinformationen vorhanden? | Ja oder Nein | |
| Herausgeberschaft | Ist die Herausgeberschaft bekannt? | Ja oder Nein |
Beispiel 1: Grundwassermessstelle
Wie die Metadatenqualität sich letztlich in Zahlen zusammensetzt, lässt sich gut am Beispiel der Grundwasser-Messstelle 6504 (Stand: 28.08.2025) veranschaulichen:
Der Punktwert dieses Eintrages setzt sich aus dem Durchschnitt der einzelnen Kriterien zusammen:
- Kennung: Es ist keine eindeutige Kennung vorhanden (0 Punkte)
- Titel: Diese Puntkzahl wird auf Basis eines von uns trainierten transformerbasierten Sprachmodells vergeben und deutet auf einen informativen Titel hin (80 Punkte)
- Beschreibung: Hohe Lesbarkeit auf Basis des Lesbarkeitsindexes (79 Punkte)
- Schlagwörter: Acht von neun Schlagwörtern sind im Umweltthesaurus vorhanden (89 Punkte)
- Raumbezug: Exakte Geodaten der Messstelle bekannt (100 Punkte)
- Zeitbezug: Zeitraum der Messungen bekannt (100 Punkte)
Verrechnet man die Einzelwerte erhält die Auffindbarkeit der Grundwassermesstelle-6504 somit im Durchschnitt 75 Punkte.
Die Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit berechnen wir auf die gleiche Art und Weise.
Beispiel 2: Beitrag zur Grundwasserqualität
Zur Veranschaulichung der schrittweisen Bewertungssysteme im speziellen bietet sich ein Vergleich mit dem Eintrag „30 Jahre Monitoring der Grundwasserqualität“ (Stand: 28.08.2025).
Für das Kriterium Lizenz wurden folgende Bewertungskategorien festgelegt:
- keine Information zur Lizenz (0 Punkte)
- unklare Lizenz (33 Punkte),
- spezifische & unfreie Lizenz (66 Punkte),
- spezifische & offene Lizenz (100 Punkte).
Der Datensatz der Grundwassermessstelle-6504 erhält auf Grund seiner offenen Lizenz —die Weiterverarbeitung seiner Inhalte frei erlaubt— 100 Punkte erhält.
Der Beitrag zur Grundwasserqualität in Baden-Württemberg erreicht hingegen nach diesem System nur 33 Punkte. Für den Beitrag ist zwar eine Copyright-Lizenz angegeben, um welche Lizenz es sich jedoch genau handelt ist nicht bekannt. Dies hindert Weiterverwendung der Informationen und drückt die finale Punktzahl.